#reducción de v-cache

Atención Top-Theta: Adelgazamiento de Transformers con Umbralización Compensada

Top-Theta: reduce 10x la memoria de atención en transformers con menos del 1% de pérdida. Sin reentrenamiento. Ideal para NLP.